Obiettivi di Apprendimento
- Analizzare l'intensità aritmetica e i limiti del modello roofline della GEMM nei Transformer
- Identificare le operazioni vincolate alla memoria rispetto a quelle vincolate al calcolo all'interno dei blocchi Transformer
- Valutare strategie di fusione degli operatori per ridurre il sovraccarico di accesso alla memoria globale
- Esaminare i pattern di implementazione per la fusione delle layer di attivazione, normalizzazione e attenzione